# -*- coding: utf-8 -*-
"""
模块名称：data_definitions.py
模块职责：定义基础数据元素与行业知识库
作者：D.C.Y.
创建时间：2025/03/14 15:30:00
最后修改时间：2025/03/21 23:41:29
"""

# 大数据企业库（含区域分布特征）
BIGDATA_COMPANIES = [
    "阿里云数据科技", "腾讯大数据中心", "百度智能云", "华为数据工程部",
    "字节跳动数据平台", "京东数科", "滴滴出行数据分析部", "美团商业智能部",
    "拼多多数据中台", "网易数帆", "蚂蚁集团风控数据", "快手大数据研究院",
    "明略科技数据科学部", "星环科技", "百分点科技", "九章云极DataCanvas",
    "IBM中国大数据实验室", "Oracle数据产品部", "SAP商业分析中心",
    "微软亚洲研究院数据科学组", "商汤科技智能平台", "旷视科技数据挖掘部",
    "科大讯飞数据处理中心", "平安科技大数据团队", "360大数据安全部",
    "小米大数据实验室", "携程数据洞察部", "去哪儿网数据运营部",
    "同程艺龙数据分析组", " 贝壳找房 数据研究中心",
    "长沙数据精灵科技", "合肥智数云科技", "厦门数据魔方有限公司",
    "青岛数智领航科技", "无锡数据动力工作室", "佛山数据洞察科技",
    "南昌数创空间科技", "贵阳数据智汇公司", "南宁数据驱动科技"
]

# 行业领域分类体系（国家统计局标准扩展）
INDUSTRY_FIELDS = [
    "金融科技数据分析", "医疗健康大数据", "智慧城市数据运营", "工业物联网分析",
    "零售用户画像", "社交网络数据挖掘", "广告效果分析", "供应链优化分析",
    "政务数据治理", "自然语言处理", "计算机视觉数据",
    "农业大数据应用", "能源大数据管理", "教育大数据研究",
    "游戏数据分析", "交通大数据优化", "旅游大数据营销",
    "环保大数据监测", "物流大数据优化", "电商大数据分析"
]

# 技术要求知识图谱（含技术栈权重分布）
TECH_REQUIREMENTS = {
    "大数据开发": ["Hadoop", "Spark", "Flink", "Kafka", "Hive", "Storm", "Presto", "Trino", "Impala"],
    "数据分析": ["SQL", "Python", "Tableau", "机器学习", "Pandas", "NumPy", "Scikit-learn", "Matplotlib", "Seaborn"],
    "数据挖掘": ["TensorFlow", "PyTorch", "特征工程", "Spark ML", "XGboost", "LightGBM", "CatBoost", "Random Forest"],
    "数据架构": ["数据建模", "数据治理", "元数据管理", "数据安全", "数据仓库", "数据湖", "Data Vault", "Kimball"],
    "数据科学家": ["R语言", "贝叶斯统计", "时间序列分析", "AB测试", "深度学习", "强化学习", "因果推断", "迁移学习"]
}

# 企业地址模板库
ADDRESS_TEMPLATES = [
    "北京海淀区西二旗{}号", "上海徐汇区漕河泾{}号",
    "深圳南山区科技园{}栋", "杭州余杭区文一西路{}号",
    "成都高新区天府五街{}号", "武汉光谷未来科技城{}栋",
    "广州天河区软件园{}号", "南京雨花台区软件谷{}栋",
    "西安高新区科技二路{}号", "重庆渝北区光电园{}栋",
    "长沙岳麓区麓谷软件园{}栋", "合肥高新区创新产业园{}栋",
    "厦门软件园{}期{}号楼", "青岛崂山区科技城{}号",
    "无锡太湖国际科技园{}栋", "佛山南海区千灯湖科技小镇{}号",
    "南昌红谷滩新区慧谷产业园{}栋", "贵阳高新区大数据广场{}号",
    "南宁五象新区总部基地{}号楼"
]

# 应聘要求（基于岗位胜任力模型）
APPLICATION_REQUIREMENTS = {
    "大数据开发": [
        "熟练掌握至少一种大数据开发框架，如 Hadoop、Spark 等",
        "具备良好的编程习惯和代码规范",
        "有分布式系统开发经验者优先",
        "熟悉容器化技术（如 Docker、Kubernetes）者优先"
    ],
    "数据分析": [
        "熟练掌握 SQL 进行数据查询和分析",
        "熟悉 Python 数据分析库，如 Pandas、NumPy 等",
        "具备数据可视化能力，如使用 Tableau",
        "有业务数据分析经验，能理解业务需求者优先"
    ],
    "数据挖掘": [
        "掌握常见的数据挖掘算法，如决策树、神经网络等",
        "有实际项目经验，能够处理大规模数据集",
        "熟悉深度学习框架，如 TensorFlow、PyTorch",
        "具备数据预处理和特征工程能力"
    ],
    "数据架构": [
        "具备数据建模和数据治理经验",
        "熟悉元数据管理和数据安全相关知识",
        "有大型数据仓库或数据湖建设经验者优先",
        "了解数据集成和 ETL 过程"
    ],
    "数据科学家": [
        "精通统计学和机器学习算法",
        "能够使用 R 语言或 Python 进行数据分析和建模",
        "有实际业务场景中的数据挖掘和分析经验",
        "具备问题解决能力和创新思维"
    ]
}

# 岗位要求层级（基于岗位胜任力模型）
POSITION_REQUIREMENTS = {
    "大数据开发": [
        {
            "一级要求": "技术能力",
            "二级要求": [
                "熟练掌握至少一种大数据开发框架，如 Hadoop、Spark 等",
                "熟悉 Java 或 Scala 编程语言",
                "了解分布式存储系统（如 HBase、Ceph）"
            ]
        },
        {
            "一级要求": "项目经验",
            "二级要求": [
                "有分布式系统开发经验者优先",
                "参与过大型数据处理项目",
                "有实时数据处理项目经验者优先"
            ]
        },
        {
            "一级要求": "其他要求",
            "二级要求": [
                "具备良好的编程习惯和代码规范",
                "有团队协作精神",
                "能够快速学习和掌握新技术"
            ]
        }
    ],
    "数据分析": [
        {
            "一级要求": "技术能力",
            "二级要求": [
                "熟练掌握 SQL 进行数据查询和分析",
                "熟悉 Python 数据分析库，如 Pandas、NumPy 等",
                "了解数据仓库和 OLAP 技术"
            ]
        },
        {
            "一级要求": "业务理解",
            "二级要求": [
                "能够理解业务需求，提供数据支持和分析建议",
                "有行业数据分析经验者优先",
                "具备商业敏感度"
            ]
        },
        {
            "一级要求": "其他要求",
            "二级要求": [
                "具备数据可视化能力，如使用 Tableau",
                "有良好的沟通能力",
                "能够撰写清晰的数据报告"
            ]
        }
    ],
    "数据挖掘": [
        {
            "一级要求": "技术能力",
            "二级要求": [
                "掌握常见的数据挖掘算法，如决策树、神经网络等",
                "熟悉深度学习框架，如 TensorFlow、PyTorch",
                "了解数据挖掘的流程和方法"
            ]
        },
        {
            "一级要求": "项目经验",
            "二级要求": [
                "有实际项目经验，能够处理大规模数据集",
                "参与过数据挖掘相关项目",
                "有模型评估和优化经验者优先"
            ]
        },
        {
            "一级要求": "其他要求",
            "二级要求": [
                "具备良好的数学基础",
                "有团队合作精神",
                "能够从数据中发现有价值的信息"
            ]
        }
    ],
    "数据架构": [
        {
            "一级要求": "技术能力",
            "二级要求": [
                "具备数据建模和数据治理经验",
                "熟悉元数据管理和数据安全相关知识",
                "了解数据集成和 ETL 工具"
            ]
        },
        {
            "一级要求": "项目经验",
            "二级要求": [
                "有大型数据仓库或数据湖建设经验者优先",
                "参与过数据架构设计项目",
                "有数据治理项目经验者优先"
            ]
        },
        {
            "一级要求": "其他要求",
            "二级要求": [
                "具备良好的系统思维和规划能力",
                "有团队管理经验者优先",
                "能够制定数据标准和规范"
            ]
        }
    ],
    "数据科学家": [
        {
            "一级要求": "技术能力",
            "二级要求": [
                "精通统计学和机器学习算法",
                "能够使用 R 语言或 Python 进行数据分析和建模",
                "了解深度学习和强化学习的应用场景"
            ]
        },
        {
            "一级要求": "业务理解",
            "二级要求": [
                "有实际业务场景中的数据挖掘和分析经验",
                "能够将数据结果转化为业务建议",
                "具备行业知识和洞察力"
            ]
        },
        {
            "一级要求": "其他要求",
            "二级要求": [
                "具备良好的沟通能力和团队合作精神",
                "有创新思维和解决问题的能力",
                "能够独立开展研究和实验"
            ]
        }
    ]
}

# 更多的福利选项
WELFARE_OPTIONS = [
    "六险一金+商业保险",
    "年度健康管理基金",
    "股票期权激励计划",
    "带薪年假",
    "节日福利",
    "员工旅游",
    "免费工作餐",
    "交通补贴",
    "住房补贴",
    "育儿假",
    "弹性工作制度",
    "健身俱乐部会员",
    "专业技能培训",
    "职业发展规划指导",
    "远程工作机会",
    "家属福利",
    "心理咨询服务",
    "年度体检",
    "生日福利",
    "项目奖金",
    "下午茶补贴",
    "学习资源补贴",
    "团建活动经费"
]

# 更多的岗位优势选项
POSITION_ADVANTAGES = [
    "参与国家级数据平台建设",
    "与顶尖数据科学家共事",
    "行业领先的数据资源池",
    "良好的职业发展空间",
    "灵活的工作时间",
    "丰富的内部培训与学习机会",
    "前沿技术的实践应用平台",
    "跨部门合作与交流的广阔空间",
    "有竞争力的绩效奖金制度",
    "舒适的办公环境和设施",
    "定期的团队建设活动",
    "国际化的工作视野和交流机会",
    "项目成功后的高额奖励",
    "明确的晋升通道和快速成长机会",
    "专业导师的一对一指导",
    "对创新想法的高度支持和鼓励",
    "健康和谐的企业文化氛围",
    "可参与公司核心项目的决策权",
    "与行业大咖面对面交流的机会",
    "免费的健康体检和保健服务",
    "参与行业顶级会议和研讨会的机会",
    "接触最前沿的大数据技术和应用场景"
]

# 更多的额外标签
EXTRA_TAGS = {
    "大数据开发": ["分布式存储", "实时计算", "数据集成", "ETL工具", "微服务架构", "流式处理"],
    "数据分析": ["数据洞察", "数据可视化设计", "数据仓库分析", "数据质量评估", "AIDA模型应用", "漏斗分析"],
    "数据挖掘": ["聚类分析", "关联规则挖掘", "异常检测", "数据降维", "文本挖掘", "推荐系统"],
    "数据架构": ["数据湖设计", "元数据管理工具", "数据安全策略", "数据治理框架", "主数据管理", "数据质量管理体系"],
    "数据科学家": ["算法优化", "模型评估", "特征工程实践", "数据驱动决策", "因果推断应用", "模型可解释性"]
}

# 更多的通用标签
GENERAL_TAGS = ["大数据行业", "数字化转型", "数据驱动创新", "科技前沿", "人工智能融合", "云计算应用", "区块链数据应用"]

# 地区分类标准（城市->大区）
REGION_CLASSIFICATION = {
    # 长三角（江浙沪皖）
    "上海": "长三角", "杭州": "长三角", "南京": "长三角", "苏州": "长三角",
    "无锡": "长三角", "宁波": "长三角", "合肥": "长三角", "常州": "长三角",
    # 珠三角（粤港澳大湾区）
    "广州": "珠三角", "深圳": "珠三角", "佛山": "珠三角", "东莞": "珠三角",
    "珠海": "珠三角", "中山": "珠三角", "香港": "港澳", "澳门": "港澳",
    # 互联网巨头白名单
    "阿里": "巨头", "腾讯": "巨头", "百度": "巨头", "字节": "巨头",
    "华为": "巨头", "京东": "巨头", "美团": "巨头", "拼多多": "巨头"
}

# 各省份2023年大数据行业薪资基准（单位：k/月）
PROVINCE_SALARY_RANGES = {
    # 长三角
    "上海": (28, 65), "浙江": (25, 60), "江苏": (24, 58), "安徽": (22, 55),
    # 珠三角
    "广东": (26, 62), "香港": (35, 90), "澳门": (32, 85),
    # 其他地区
    "北京": (27, 70), "四川": (20, 50), "湖北": (21, 52),
    "陕西": (19, 48), "其他": (18, 45)
}

# 基础数据模板
BASE_TEMPLATE = {
    "companyFullName": None,
    "companyShortName": None,
    "companyType": None,
    "financeStage": None,
    "companySize": None,
    "industryField": None,
    "businessArea": None,
    "workAddress": None,
    "positionName": None,
    "firstType": None,
    "education": None,
    "workYear": None,
    "salary": None,
    "welfare": None,
    "positionAdvantage": None,
    "jobDescription": None,
    "requirements": None,
    "applicationRequirements": None,
    "positionId": None,
    "formatCreateTime": None
}
